查看原文
其他

专题|加强儿童类商品内容治理,守护未成年人健康成长《人工智能治理与可持续发展实践白皮书》

《人工智能治理与可持续发展实践白皮书》

阿里巴巴集团联合中国信通院编写了《人工智能治理与可持续发展实践白皮书》,于2022世界人工智能大会“数字时代的技术责任论坛”上,正式发布!全面总结了阿里巴巴在人工智能治理与可持续发展领域的实践,重点针对当前人工智能应用中的热点问题,从数据、技术、管理及多元协同等方面,系统性介绍了我们的实践思路和方法,同时辅以若干专题进行阐释,期待为社会各界提供有益参考。

白皮书全文4.5万余字,现分章节陆续分享。
往期章节回顾请点击👇:
专题

加强儿童类商品内容治理

守护未成年人健康成长

👆🏻点击视频,图文并茂地了解本文

1.儿童类商品内容治理日益重要
在电商平台上,部分儿童类商品的商家会发布一些有害未成年人身心健康的商品内容,例如儿童服饰中的贴身衣物图片聚焦敏感部位、让不谙世事的孩子模仿成人做出各种诱惑动作拍照,商品描述中包含低俗暗示性语言等。这些行为破坏了健康文明有序的网络环境,引发了社会的广泛关注。清理信息污垢,守护清朗健康的网络环境,保护未成年人的身心健康和合法权益、促进未成年人健康成长,电商平台责无旁贷。

2.淘宝针对儿童类商品内容治理的制度规范实践

面向用户,在用户隐私权政策方面,对于14周岁以下的儿童,淘宝专门制定了《儿童个人信息保护规则》,在监护人仔细阅读并同意后,儿童才可在监护人的指导下使用淘宝的服务,确保在使用淘宝的服务和进行交易时的安全。同时,在商品展示上也做了约束保障,例如用户搜索“儿童”时,则返回的结果中不包含成人用具等类目的商品;针对白酒、游戏、农兽药等不利于未成年人身心健康或者较易造成伤害的商品,平台通过交易阻断等方式来限制未成年人购买,并且相关商品不做主动推广。

面向商家,淘宝颁布了《淘宝儿童类商品行业规范》,明确严厉禁止涉及未成年人的违法不良信息,包括但不仅限于儿童服饰、玩具和儿童影像、照片等,范围覆盖商品标题、商品文字描述、商品图片和商品评价等内容。同时,淘宝上线儿童类商品发布合规提醒功能,后台会明显提示“请您发布儿童商品时,参照《淘宝儿童类商品行业规范》进行发布,否则可能有下架/删除/扣分等处罚风险”,并建议儿童服饰类商家尽可能减少使用真人模特,避免贴身衣物聚焦敏感部位等问题。


3.淘宝针对儿童类商品内容治理的技术能力实践

在完善制度建设和提升商家合规意识的基础上,淘宝进一步发挥在技术能力上的资源和优势,针对儿童类商品内容风险的特点,在文本和图片维度开展了一系列技术能力建设。


1)文本对抗技术

不良商家往往会对发布的文本内容添加精心构造的对抗扰动,例如“学生专属 -> 學鉎專屬”,试图绕过线上识别系统的拦截。深度神经网络的固有脆弱性导致其在对抗攻击下给出错误的识别结果;人脑做信息理解时会综合语义、视觉和声音等多个模态的特征,因此这种只在文本维度构造的对抗攻击往往不会影响人的阅读理解。


受此启发,淘宝提出了基于多模态词嵌入的文本对抗防御技术,通过语义嵌入、字形嵌入和字音嵌入分别提取文本的语义、视觉、读音三个模态的特征,然后通过多模态融合技术对齐和融合三个模态的特征以形成语义丰富的鲁棒表征,可以有效增强模型针对文本对抗风险的鲁棒性。



2)领域知识图谱


青少年经常创造一些新的语义符号,成为自身群体的专属语言,例如“cpdd -> 找人组CP有意请联系我”。如果不具备这些背景知识,面对青少年群体中的特定文本,成年人很难理解其中蕴含的真实意义,无法识别风险;模型也是如此。因此,我们首先需要搜集青少年群体常用的符号、代称、特定语义等,建立相互之间的联系,并与正常语言做映射,构造青少年语义知识图谱;然后在识别模型的设计上,把输入分为上下文和知识点两部分,模型分别提取文本和知识的表征,实现结构化知识和无结构文本之间的信息共享,借助先验知识加强模型对输入的语义理解,提升识别能力。

3)细粒度图像识别技术

《淘宝儿童类商品行业规范》针对图片定义了明确的风险类型和详细的认定标准,例如在某些服装下的特定姿态、聚焦部位等,这给识别模型带来了多标签、易混淆的挑战。传统的粗粒度分类已经无法满足要求,需要模型输出更细粒度的标签对内容进行管控。在细粒度图像识别领域,区域注意力的定位和放大是一个核心难题。

我们提出了多尺度循环注意力的Transformer(RAMS-Trans),具体框架如下图所示。它利用Transformer的自注意力机制,以多尺度的方式循环地学习判别性区域注意力。方法的核心在于动态图像块建议模块(DPPM)引导区域放大,完成多尺度图像子区域的整合。

DPPM从全尺寸图像区域开始,通过每个尺度下产生注意力权重强度作为指标,迭代放大区域注意力,生成从全局到局部的新图像块。该方法在多个公开数据集上均取得了目前最好的效果,相关成果形成论文《RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained Image Recognition》被ACM Multimedia 2021接收。

4)单域多模态识别技术


单域多模态指图片内容场景中的信息多模态,例如图片上加入文字信息,在商品图片和商品评价场景中广泛存在。这种情况下,针对单一图像维度往往难以明确识别风险,需要模型综合多个维度的信息来判断。目前多模态研究工作主要集中在不同模态信息的融合位置上,比较典型的如早期融合和晚期融合。

我们发现对于不同的样本,其对应的图片重要性以及文本重要性是不同的,因此需要根据不同样本模态信息的重要性来动态选择权重进行多专家融合,从而达到更优的性能。我们设计了两个路由机制分别接受文字和图片信息,根据模态信息的数据分布确定其重要性。通过重要性融合产生参数来指导动态网络进行融合。路由机制可以选择性使用,因此兼容了多模态和单模态的任务。

此外,框架的高度模块化也使得在工业实践上也具有很强的适配性和可用性。相关工作整理为论文《DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic Framework》被ACM Multimedia 2021接收。
🌟下期预告第四章:《构建全方位的人工智能管理体系》

我们将持续更新,敬请期待😚~关注【AAIG】公众号回复「 白皮书 一键下载全文👇

 直播预告 


往期精彩推荐点击标题查看文章

● 专题|维护电商平台信息真实和竞争公平《人工智能治理与可持续发展实践白皮书》


● AAIG成立一周年!砥砺前行,谱写新时代的科技之歌~请查收这份最新的自我介绍


● AI治理必修第14刊|AI画作获奖,但惹了众怒!英伟达、AMD恐断供高端GPU,中国AI计算或需另起炉灶!


 听委员说|AAIG薛晖出席杭州市"两会",提出加快建立人工智能产业的多元协同治理机制


 如何构建企业数据管理体系?AI产品出海有哪些数据风险?浅谈AI数据合规与风险防范实践(下)


 “算法偏见”是概念炒作吗?「这个AI不太冷」第3期带你揭秘现实AI!

更多人工智能治理和可持续发展好文
点击下方名片关注和星标【阿里巴巴人工智能治理与可持续发展研究中心】👇AAIG课代表,获取最新动态就找她

 关注公众号发现更多干货❤️


有启发点在看喔👇
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存